查看原文
其他

计算机视觉CV的困境:深度学习不再是问题,数据的采集和标注才是

科技云报道 科技云报到 2023-08-09

2012年,AlexNet网络横空出世,带来了前所未有的深度学习革命,这也让多年来进展缓慢的计算机视觉CV研究,一下被按下了快进键
 
人们突然发现,这种模拟人脑抽象和迭代过程的深度学习算法,让计算机开始“看见”。

从物体的边缘、轮廓到物体的部分,再向更高级层层抽象,深度学习让计算机终于能够在一张日常照片中,检测并识别出图上有一只猫,而不是一条狗。
 

这样的一小步,人类已经等待了二十多年。

2016-2018年,深度学习成为计算机视觉CV研究的算法“标配”,人脸识别、图像识别、视频识别、物体跟踪、行人检测等CV技术得以进一步突破,并快速应用到安防、金融、汽车出行、泛娱乐等各个行业中。
 
如今,人们拿起手机刷脸支付、一键美颜、拍照识图,背后都有计算机视觉CV技术的身影。而在更广阔的行业市场,智慧城市、自动驾驶、智能家居、智慧医疗等多种场景都在渴望计算机视觉CV技术更进一步。
 
过去五年,计算机视觉CV领域一度成为国内创投圈的“宠儿”。仅2018年,该领域融资额就高达230亿。

然而,这样的盛景并没有持续多久。
 
去年2月,计算机视觉奠基人Alan L. Yuille曾撰文表达他对当下计算机视觉CV技术发展的担忧。他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。
 
从某种意义上来说,计算机视觉CV研究的确已经进入了瓶颈期。


计算机视觉CV困境:
受限于AI数据的规模和质量
 
在近几年的发展中,图像分类、对象检测、目标跟踪、语义分割、实例分割等计算机视觉CV技术的核心任务,其精确度已经达到了产业落地的水平,但随之而来的,却是计算机视觉CV公司技术的同质化。
 
京东集团智能平台部投资主管徐博曾表示,在全球范围内,计算机视觉CV企业的技术都差不多,无论从中国还是美国发布的研究成果看,算法都是类似的。
 
业界关于计算机视觉CV技术已触及天花板的讨论越来越多,而源头则统一指向了深度学习算法。

由于深度学习高度依赖大量的标注数据,如果计算机视觉CV的精确度想要再提高,如:对非常小和模糊的目标做检测,在复杂光照变化下保证分割结果稳定等,都需要分类更加细致、标注更加细化的数据去“教导”深度学习算法。
 


不仅如此,在工业界,数据规模更容易成为算法研发的关键因素。

如果有更多的数据,就可以使用容量更大、更复杂的模型,得到效果更好的算法。当数据大到一定程度,数据和算法之间可以进行反复迭代,形成壁垒,为公司提供竞争力。
 
尴尬的是,在计算机视觉CV领域,可用数据的规模和质量,远远达不到进一步提升效果的需求。

为了解决AI“数据荒”,业界尝试过多种办法,如:在少量数据基础上增加特征生成新数据;再或者,另辟蹊径去攻克半监督或无监督学习。
 
但是,种种“曲线救国”的办法,都解不了计算机视觉CV领域对高质量数据的“近渴”。

落地到工业界,企业迫于市场竞争的压力,对计算机视觉CV的感知能力要求还在提升,业界对大规模、高质量AI数据的渴望空前强烈。
 
以人脸识别技术为例,云测数据总经理贾宇航表示,2015-2016年,人工智能对人脸数据训练的还相对粗放。

但到了现在这个阶段,由于人工智能应用场景的多样性,对不同年龄、性别、肤色,不同的光线、角度的场景化要求越来越复杂,而且拍摄设备也随着手机、相机的不断进化,从单镜头到双镜头甚至增加了3D摄像设备,算法训练对数据的要求变得更加精细、丰富更加具有策略性。

   场景化AI数据:
量身定制的数据采集和标注
 
事实上,如今各大企业在AI产品上的竞争,本质上已经变成了AI数据之争。
 
在智能安防领域,产品可以分为监控、探测、防护等等,而视频监控则占据了其中大头部分。

现有摄像头囊括了大量的行人、机动车、自行车等道路场景数据,而预警作为智能安防的重要作用之一,需要识别诸如:老人摔倒、抢劫、打架、着火等稀有的小场景数据。

显然,这种长尾场景的数据,需要在特定条件下的才能获取。

在人机交互领域,除了常规的语音、动作识别等,很多前沿研究希望通过情绪识别的方式,感知用户的心理状态,进而优化人机交互的体验。

相对应的,人类在各种特定条件下的喜怒哀乐哭笑等精细的情绪数据,仍缺乏规模和质量。
 
在自动驾驶领域,由于涉及到驾驶安全,对场景化的数据要求更为精细。

以图像识别为例,在佐治亚理工学院的一项研究中,通过对8个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低5%。
 
但从技术角度来看,计算机视觉CV是通过RGB或RGBD识别人/物体的信息,其中黑色是最难被识别的。现实中,由于黑色及深色的数据稀少,导致算法模型不够精确,最终在实际落地应用时出现差错。
 

为了获得规模化、高质量的AI数据,工业界开始寻求一种更具专业化的数据获取方式,即通过定制的数据采集和标注,来获取特定的场景化数据。

据云测数据总经理贾宇航介绍,现阶段AI数据有着三个大趋势:
 
第一,场景的多元化。基于产品落地场景,尽可能模拟各种各样的特定条件,如:光线强度、拍摄角度、噪声要求、室内室外等,以覆盖丰富多样的场景,甚至是长尾场景的数据需求;
 
第二,样本的多样性。以人的数据为例,人是一个非常多元化的物种,有不同的年龄、人种、性别、国籍等等,除此之外还涉及广泛的数据类型,包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性,用AI产品服务好各种人群,就需要丰富多样化的样本。
 
第三,数据的多维化。随着技术和行业的发展,以智能驾驶领域数据需求为例,业界已逐渐从单摄像头过渡到多摄像头的方案。但是2D图像对于物体的测距仍有着很大的局限性,因此也出现了与激光雷达、超声波雷达等3D传感器的融合。通过多维度的采集硬件设备,帮助更多维度数据融合加速场景的落地。
 
目前,处于AI产品落地前夕或者处于重大迭代周期的企业,已经开始大力投入场景化数据用于算法的训练。

以汽车行业为例,数据场景化定制主要集中在AI落地的两个方向:自动驾驶和车内智能驾驶仓。
 
在自动驾驶方向上,业界对行驶安全尤为关注,因此加大了对道路上长尾场景的覆盖,如:行人出现在马路中间、孩子突然在车前摔倒等,这决定了自动驾驶车辆能否及时识别出这些状况,并完成相应的控制决策。

而在疫情期间,大街上出现了大量戴口罩的行人,这类场景也需要相对应的数据进行算法模型训练。

在车内智能驾驶仓方向上,企业比拼的是车内智能和互动的体验,如:通过手势识别、语音识别、情绪识别等AI技术,来关注车内驾驶员是否疲劳驾驶、车内是否会出现争吵等危险事件,以便做到及时识别和干预。
 
事实上,道路情况千变万化。云测数据通过自建的“场景实验室”的方式还原现实场景,帮助算法模型尽可能多地覆盖不同场景下的多维数据,从而提高自动驾驶车辆的安全性。而这样高质量的场景化数据,才得以帮助企业真正的商业化落地。
 
云测数据:
场景化AI数据采标的引领者
 
如今,越来越多的行业在与人工智能技术结合。企业为了保持优势,打造持续的AI竞争力,开始与AI数据服务商紧密合作,以获得更高质量的场景AI数据来进行产品落地前的优化。
 
根据艾瑞《中国人工智能基础数据服务行业白皮书》显示,2018 年,数据资源定制服务已在基础数据服务市场占据86.2%的份额。各个行业的头部企业更是一马当先,都在为场景化AI数据“下血本”。
 
目前,众多AI巨头、车企巨头、大型金融机构、互联网企业以及传统企业等等,都与云测数据建立了良好的合作伙伴关系。

 
一旦数据采集和标注变成专业化、高质量的服务,交付的数据就需要在数据的规模、质量、时效性上充分满足服务企业的需求,来助力AI产品达到商业化落地的标准,而这正是云测数据的优势所在。
 
据悉,云测数据作为国内数据采集和标注领域头部的服务商,在创立之初恰逢自动驾驶、智能音箱等AI应用趋势兴起,各大企业需要大量的计算机视觉CV数据以打磨自己的算法和AI能力,由此计算机视觉CV也成为云测数据至今深耕最久、经验最丰富的领域之一。
 
虽然与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域,但长期与行业众多企业的紧密合作,让云测数据持续保持着全品类CV数据采集和标注的优势。
 
为了提供更为专业的服务,云测数据自建数据基地和场景实验室的方式,打造出AI领域的数据“梦工厂”。

 
结合标准化的作业流程,并配以专业的标注工具和平台,云测数据在华东、华南、华北自建的数据标注基地和场景实验室,是高效率和高质量数据交付的强力保障。
  
其实对于数据标注,不同的人有不同的理解,例如:什么样的光线叫做强光线,在判断上有很强的主观性。

为了保证企业客户和标注人员的理解达成一致,云测数据的项目经理保持着实时的沟通和反馈,并配合行业培训师对标注员们进行前期培训,以确保在标注时具有领域专业知识。在确立了数据标注标准后,标注员全程在线上标注系统里完成作业,并最终经过层层质检以保证数据标注的准确性。

以自动驾驶为例,为了让机器“看见”复杂道路环境中的车道线、路标、障碍物、行人、十字路口,以及一些长尾场景如:闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等,数据标注时需要采用图像分割、连续帧标注、2D图像框选、3D点云标注等多种标注方式。

其中,云测数据自研的3D点云标注工具,能够保证整个标注过程流畅快捷,其效率比开源工具高5倍左右。
 
在人脸及人体关键点标注及追踪方面,云测数据能够通过领先的标注工具实现精细化的标注,如:对人脸进行26点、54点、96点、206点的人脸关键点标注;贴合度在3像素以内的特定任务关键点追踪;对人体骨骼关键点位置进行打点,特定位置可脑补并分配对应动作属性等。
 
对于企业客户最关注的数据安全和隐私,云测数据也有自己的原则和底线。

首先,数据绝不复用,对于客户定制的数据需求,交付后全部清删。第二,在云测数据的标注基地设定了数据隔离、质量保障等一系列数据安全流程,确保数据不泄露,同时还提供私有化部署、标注人员驻场等服务。
 
不难发现,云测数据从数据采集、标注、审核、输出、安全等环节提供了一整套的解决方案,在保障AI场景化数据高质量生产的同时,也使得交付的数据等高效、高质、安心。
 
CV研究下的AI数据趋势:
精细化、效率化、多模化
  
随着企业在AI功能性、拟人化、安全性方面的竞争进一步加剧,对应CV数据的要求也将越来越高。在云测数据总经理贾宇航看来,未来计算机视觉训练数据的发展需求会呈现三大趋势:
 
一是,数据采集和标注的精细度会更高。从算法的学术研究到产业落地,对于标注内容的精细程度正在不断上升 。


以人脸识别为例,从前期的90%到95%是一个档次,而当数据标注精度达到99%时,算法模型的完善,将会有质的提高;同时,针对物体属性分类,也从单层级向多层级进行演进 ;以及对应的训练数据的采集与标注,需要有更多相关操作能力和经验的专业人员来操作。
 
二是,在效率层面,未来随着更多产品落地,AI产品迭代时间将更加清晰明确 ,对应的数据标注时间、数据标注量都有明确的时间节点。因此,数据采集和标注的效率,将很大程度考验着数据服务商的专业度。
 
三是,多模态的数据采集和标注,会成为一种必然趋势。不同的样本、场景、设备构建的多维度数据的融合,将大幅度提升AI算法的能力。对于数据服务商而言,是否具备加速处理数据的能力,以及场景搭建、还原的能力,都决定了市场竞争的门槛。
 
在这样的趋势下,所有的AI数据服务商都面临不断升级的业务难度。

如云测数据这类处于引领地位的数据服务商,往往会结合各行业最头部企业客户的需求,来布局自己的服务领域,对服务能力进行自我迭代升级,以确保该需求成为行业普遍需求时已经成为该领域的数据专家。

对于后进者而言,缺少专业知识、技术和行业经验的日复一日的积累,这种竞争差距只会越拉越大。
创立了ImageNet数据集的斯坦福教授李飞飞曾在TED演讲中畅想:“当机器可以‘看到’时,医生和护士会获得一双额外的、不知疲倦的眼睛,帮他们诊断病情、照顾病人;汽车可以在道路上行驶得更智能、更安全。我们会发现新的物种、更好的材料,还可以在机器的帮助下探索从未见过的前沿地带。”
 
人类对于技术深度的追求和美好未来的畅想从不落幕。很多人或许认为计算机视觉CV技术已经遭遇了瓶颈。

但同时,也有越来越多的企业意识到,想要打破计算机视觉CV技术的同质化,再一次实现机器感知能力的突破,获取高质量、精细化的场景化AI数据至关重要,而这也是各行业企业打造AI竞争力的关键所在。


 相关阅读


AI商业化之争:高质量NLP数据成“抢手货”

AI深度伪造视频,你能认出来吗?

深度学习“奠基人”科伦斯:人脑中的一片黑暗才是“黑匣子”

科大讯飞“AI同传造假”风波:机器翻译替代人工还很遥远

听说AI很厉害,但最先进的AI仅相当于4岁儿童


【科技云报道原创】

转载请注明“科技云报道”并附本文链接

文中部分图片来源于网络,如有侵权请联系删除


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存